package com.wzxy.parse.wx;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class Test {
 
	/**
	 * 通过JS加载概要的内容(不同的JS加载)
	 * @param doc
	 * @return
	 */
	public String getSummary(Document doc){
		Elements scripts = doc.select("script");
		String summary = null;
		for(Element script : scripts)
		{
		   if(script.html().contains("var msg_desc = ")) //注意这里一定是html(), 而不是text()
		   {
		      String str = script.html().replace("\n", ""); //这里是为了解决 无法多行匹配的问题
		      String pattern = "var msg_desc = \"(.*?)\";"; //()必须加，

		      Pattern r = Pattern.compile(pattern,Pattern.MULTILINE);// Pattern.MULTILINE 好像没有什么用，所以才使用上面的replace
		      Matcher m = r.matcher(str);
		      if(m.find())
		      {
		        summary = m.group().replace("var msg_desc = ", "");
		      }
		   }
		}
		return summary;
	}
	
}
